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Обсуждены методы оценок знаний студентов вузов. На базе результатов текущего контроля математических знаний студентов 
первого курса Томского политехнического университета проведен сравнительный статистический анализ системы оценки зна- 
ний в форме тестирования с машинной проверкой, аналогичной ЕГЭ (в объеме групп заданий А и В, без группы С) или центра- 
лизованному тестированию, и системы традиционного контроля знаний на основе аудиторных контрольных работ с проверкой 
их преподавателями. Сделан вывод о статистически значимых различиях в результатах оценки знаний этими методами. Обсуж- 
дены причины выявленных существенных различий в рассматриваемых системах оценки знаний и место этих систем в техноло- 
гии контроля качества знаний студентов. 


Введение 

Стратегической целью ТПУ является его даль- 
нейшая интеграция в международную научно-об- 
разовательную систему и превращение в одного из 
мировых лидеров высшей инженерной школы [1]. 
Одной из составляющих этого процесса является 
разработка и использование методик оценки каче- 
ства образования, сопоставимых с мировыми ана- 
логами, в частности, создание эффективной систе- 
мы контроля качества знаний [2-4] . 

В Томском политехническом университете (ТПУ) 
проводится эксперимент по введению системы неза- 
висимой оценки знаний студентов набора 2003 г. в те- 
стовой форме. Тестированием в форме, аналогичной 
билетам ЕГЭ (в объеме групп заданий А и В, без груп- 
пы С), с последующей машинной проверкой оцени- 
вались текущие знания по изучаемым в первом семе- 
стре по трем разделам курса высшей математики: 
ЛА - линейная алгебра (тест, ) , ВА - векторная алге- 
бра (тес/Пт) и Пр - пределы (введение в анализ) 
(тест ). В отличие от результатов тестирования тест к 
посредством ТЕСТ к обозначены результаты тестиро- 
вания студентов, обучающихся на кафедре высшей 
математики и математической физики (ВММФ) 
(первый курс физико-технического, электрофизиче- 
ского и химико-технологического факультетов). Ко- 
нечной целью данного эксперимента является рас- 
пространение его на все изучаемые разделы матема- 
тики вплоть до проведения экзамена в тестовой фор- 
ме. Как правило, выделяют следующие преимуще- 
ства тестовой системы контроля знаний студентов: 
объективность оценки знаний; снижение трудоёмкости 


в процессе оценки знаний со стороны преподавате- 
лей; популярность тестовой системы контроля зна- 
ний в большинстве развитых стран мира. 

Следует отметить, что анализу тестовых испы- 
таний посвящено значительное количество публи- 
каций (см. например [5-10]). Однако, в подавляю- 
щем большинстве работ анализ проводится исходя 
из внутренней структуры теста и полученных ре- 
зультатов тестирования. В связи с этим представля- 
ет интерес сравнение результатов тестирования 
ТЕСТ к с соответствующими результатами тради- 
ционного контроля знаний КТ к , полученными пре- 
подавателями кафедры ВММФ в ходе текущего се- 
местрового контроля оценки знаний студентов. Та- 
кое сравнение поможет определить роль и место 
тестовой формы контроля знаний студентов в кур- 
сах математических дисциплин. 

Статистический метод 

Сравнение результатов ТЕСТ и КТ проведено 
методами статистического анализа. Все числовые ре- 
зультаты контроля качества знаний студентов были 
приведены к единой пяти бальной шкале (делением 
результата на соответствующий максимальный ре- 
зультат и умножением на число пять). База данных, 
созданная таким образом в М$ Ехсеі, использова- 
лась далее в пакете 8ТАТІ8ТІСА 6.0 для статистиче- 
ского анализа данных [11, 12]. Строились частотные 
группированные распределения выборок и вычисля- 
лись выборочные числовые характеристики (среднее 
т, стандартное отклонение сг, асимметрия А и эк- 
сцесс Е, а также стандартные ошибки (8М. Егг.) А и 
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Е). Использовался двумерный визуальный анализ 
данных (гистограммы, линейные графики). Приме- 
нялся 7-критерий Стьюдента ( 7 Тей) для сравнения 
средних двух независимых нормальных выборок 
(при этом нормальность распределения выборок 
проверялась с помощью оценок асимметрии А и эк- 
сцесса Е, ^-критерия Пирсона и критерия Колмого- 
рова-Смирнова). В случае невыполнения условий 
применения 7-критерия Стьюдента применялись его 
непараметрические аналоги: II - критерий Манна- 
Уитни (М-\Ѵ И Тей), двух выборочный критерий 
Колмогорова-Смирнова (К-8 Тей). 


Проверка нормальности распределения выборок 
с помощью ^-критерия Пирсона и критерия Кол- 
могорова-Смирнова дают уровни значимости а, 
приводящие к выводу о высоко значимом (а<0,001) 
отличии распределения выборок от нормального за- 
кона. В связи с нарушением условия нормальности 
распределения выборок далее применялись непара- 
метрические критерии сравнения средних для двух 
независимых выборок (см. табл. 2), приводящие к 
выводу о не значимом различии (а»0,1) в средних 
баллах результатов тестирования в рамках ТПУ 
(тест ,. 3 ) 2003 и кафедры ВММФ (ТЕСТ,_ 3 ) 2003 . 


Результаты и их анализ 

Сначала было проведено сравнение результатов 
тестирования в рамках ТПУ и кафедры ВММФ в 
2003 г. Результаты суммарного (ЛА + ВА + Пр) те- 
стового контроля ( тест из ) 2т и (ТЕСТ]_ 3 ) 2003 отобра- 
жены на рис. 1. Над столбцами указаны значения 
относительных частот в %. Для визуальной оценки 
сходства наблюдаемых распределений (гистограм- 
мы) с теоретическим распределением по нормаль- 
ному закону (соответствующие кривые) использо- 
вана равномерная 5-бальная шкала. 
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Рис. 1. Составная гистограмма результатов суммарного те- 
стирования (тест ,. 3 ) 2 ооз и (ТЕСТ,. 3 ) ШЗ 

Числовые характеристики выборок (тест^) ж 
и (ТЕСТ^з^ой приведены в табл. 1. Несмотря на су- 
щественную разницу в объемах N выборок резуль- 
таты тестирований схожи по остальным числовым 
характеристикам. Проверка нормальности распре- 
деления выборок с помощью асимметрии А и эк- 
сцесса Е (А и Е по модулю не должны превышать 
утроенных соответствующих стандартных ошибок) 
показывает существенное отклонение от нормаль- 
ности в случае (шти,_ 3 ) 2003 и (ТЕСТ^ 3 ) 200 , по асим- 
метрии (см. табл.1). 


Таблица 1. Числовые характеристики выборок (тест,. 3 ) 2003 и 
(ТЕСТ,. ,)жз 


Выборка 

N 

/77 

СГ 

А 

БІсІ. 
Егг. А 

Е 

$Й. 
Егг. Е 

(гесГі-зЬооз 

2340 

1,7299 

0,9998 

0,5334 

0,0506 

-0,0633 

0,1012 

(ТЕСТ,. з) 200 з 

1371 

1,7162 

1,0245 

0,5041 

0,0661 

-0,1718 

0,1321 



Таблица 2. Критерии сравнения средних в двух выборках 
(тест, - г ) 2003 (ТЕСТ,., 


Выборки 

а-іеѵеі 

7ТѲ5І 

а-іеѵеі 

М-ѴѴ 11 Те5І 

а-іеѵеі 

К-5 Тез! 

(гес7і-з) 2 ооз ” (ТЕСТ 1 _з) 2 ооз 

0,6994 

0,6835 

>0,10 


В табл. 2. приведены также результаты применения 
7-критерия Стьюдента, подтверждающие вывод об од- 
нородности выборок (теоп 1 _ 3 ) ш и (ТЕСТ^^, что 
свидетельствует об устойчивости 7-кригерия Стьюден- 
та относительно нарушений предположения о нор- 
мальности распределений сравниваемых выборок 
[11]. Таким образом, далее можно ограничиться рас- 
смотрением выборок ТЕСТ и сравнением их с соответ- 
ствующими выборками КТ в рамках кафедры ВММФ. 

Объемы выборок КТ к внутри каждого из наборов 
2003 и 2004 гг. практически одинаковы. Как видно 
из рис. 2, объемы выборок ТЕСТ к тем меньше, чем 
позже проводилось соответствующее тестирование. 
Такую потерю интереса студентов к тестированию 
можно объяснить недостаточной организованно- 
стью в проведении этого эксперимента и слабой 
привязкой тестирования к действующей рейтинго- 
вой системе оценки успеваемости студента. 

К сожалению, тенденция незаинтересованно- 
сти студентов в участии в тестировании усилилась в 
дальнейшем, что привело к катастрофическому 
снижению объемов выборок ТЕСТ во втором семе- 
стре для набора 2003 г., а в третьем семестре тести- 
рование проводилось лишь эпизодически в отдель- 
ных группах. С набором 2004 г. ситуация начинает 
повторяться. Все это ограничивает сравнительный 
анализ объемом первого семестра. 



ЛА ВА Пр 


контрольные темы 

Рис. 2. Относительное количество студентов ВММФ, приняв- 
ших участие в контрольных испытаниях в 2003 и 2004 гг. 
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Рис. 3. Сравнение неудовлетворительных результатов КТ и 
ТЕСТ студентов ВММФ в 2003 и 2004 гг. 

Различия КТ и ТЕСТ показаны на рис. 3 сравнением 
неудовлетворительных оценок (<2,5 по 5-бальной шка- 
ле) в контрольных темах 2003 и 2004 гт. Можно заметить, 
что по результатам суммарного контроля в 2003 г. (см. 
рис. 6) неудовлетворительных результатов в (ТЕСТ 1 _ 3 ) 200 з 
было более чем в 2 раза больше в сравнении с результа- 
тами (КТ 1 _з) 200 з (82 и 39 % соответственно). В значитель- 
ной степени такой контраст результатов объясняется ор- 
ганизационными сбоями в проведении тестирования 
ТЕСТ 2 и ТЕСТз (тестирование неизученных до конца 
тем). Поэтому результаты КТ можно считать более аде- 
кватно отражающими реальную ситуацию с успеваемо- 
стью студентов. Различие результатов КТ 200 , и КТ 2004 на 
5. . . 1 0 % можно объяснить, во-первых, более слабым на- 
бором 2004 г. [12] и, во-вторых, неучастием в данном 
контроле лучших студентов, отделенных в 2004 г. в груп- 
пы элитного технического образования [13]. 

Сравним суммарные (ЛА+ВА+Пр) выборки 
ТЕСТ^з и КТ[_з по 2003 г. (рис. 4) и 2004 г. (рис. 5). 
Визуально очевидны различия между ТЕСТ[_ 3 и 
КТ[_з как по 2003 г, так и по 2004 г. 



Рис. 4. Составная гистограмма (КТ. 3 ) 2003 и (ТЕСТ і- 3 ) 2 ооз по 
равномерной 5 -бальной шкале 


На рис. 6 и 7 для простоты восприятия исполь- 
зована неравномерная 5-бальная шкала: [0; 2,5] - 
«неуд»; (2,5; 3,5] - «удовл»; (3,5; 4,5] - «хор» и 
(4,5; 5] - «отл», в которой отражено визуальное 
сравнение результатов КТ, , и ТЕСТ^. Здесь разли- 
чия между ТЕСТ,., и КТ,., как по 2003 г., так и по 
2004 г. еще более очевидны. 



пятибальная шкала 

Рис. 6. Составная гистограмма (КТ : - 3 ) 2т и (ТЕСТ УЗ ) 2 003 по не- 
равномерной 5-бальной шкале 



пятибальная шкала 


Рис. 7 . Составная гистограмма (КТ- 3 ) 2т и (ТЕСТ,- 3 ) 2т по не- 
равномерной 5-бальной шкале 


Уровень значимости различия средних результа- 
тов ТЕСТ[_з и КТ|_з определялся с помощью стати- 
стических критериев. Числовые характеристики вы- 
борок ТЕСТ,_ 3 и КГ, _з приведены в табл. 3. Следует 
отметить существенные отличия от нормального за- 
кона распределения выборок (КТ^)* и (ТЕСТ|_з) 20М 
по асимметрии А и выборок (КТ^мз, (ТЕСТ^з)^ и 
(КІѴз)^ по эксцессу Е, что визуально очевидно из 
рис. 4, 5. Это подтверждаются также проверкой нор- 
мальности распределения выборок с помощью 
^-критерия Пирсона и критерия Колмогорова- 
Смирнова, дающих высоко значимые (а<0,001) отли- 
чия распределений выборок от нормального закона. 



Рис. 5. Составная гистограмма (КТ 3 - 3 ) 2т и (ТЕСТ 3 - 3 ) 2т по 
равномерной 5-бальной шкале 


Таблица 3. Числовые характеристики выборок ТЕСТ,. 3 и КТ- 3 
2003 и 2004 гг. 


Выборка 

N 

/77 

сг 

А 

БІсІ. 
Егг. А 

Е 

5Й. 
Егг. Е 

(ТЕСТ,., Ігооз 

1371 

1,7162 

1,0245 

0,5041 

0,0661 

-0,1718 

0,1321 

(КТѴзЬооз 

1799 

2,9954 

1,3944 

-0,2384 

0,0577 

-0,9694 

0,1153 

(ТЕСТ 1 _з) 2 оо4 

1165 

1,9599 

1,1621 

0,1164 

0,0717 

-0,7163 

0,1432 

(КТі_з)гоо4 

1609 

2,6682 

1,3568 

-0,1204 

0,0610 

-0,8480 

0,1219 


В связи с нарушением условий применимости 
7-критерия Стьюдента для сравнения средних двух 
независимых выборок использовались его непара- 
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метрические аналоги, давшие высоко значимые 
(а«0,001) различия в средних баллах результатов 
суммарного контроля в 2003 г. (1,7162 для 
(ТЕСТ 1 _з) 20 оз и 2,9954 для (КГ І _з) 2003 ), а также в средних 
баллах результатов суммарного контроля в 2004 г. 
( 1 ,9599 для (ТЕСТ 1 _з) 2004 и 2,6682 для (КТ,_з) 2004 ). 

Как следует из выше изложенного, ТЕСТ опре- 
деляет уровень знаний студентов ниже, чем КТ, в 
силу как организационных, так и методических 
причин. Но если организационный сбой в проведе- 
нии ТЕСТ еще можно устранить, то с методически- 
ми проблемами сложнее. Предложенные тестовые 
механизмы оценки знаний являются более грубы- 
ми, чем существующие традиционные. По анало- 
гии с билетами ЕГЭ билеты ТЕСТ содержат только 
задания на «угадывание» (группа А) и задания, пра- 
вильность решения которых проверяются только по 
конечному числовому результату (группа В). На- 
пример, предлагается вычислить определитель че- 
твертого порядка, что в принципе допускает мно- 
жество способов решения. Проверка метода реше- 
ния подобных задач не под силу ТЕСТ. В то же вре- 
мя КТ, опираясь на ручную проверку и собеседова- 
ние со студентом, основной акцент делает на прак- 
тические задания (группа В), проверяя методы их 
решения, и теоретические задания (группа С) на- 
пример, доказательства теорем, которые развивают 
строгое логическое мышление. Причем контроль 
теоретического материала в КТ составляет треть об- 
щей суммы баллов по используемой рейтинговой 
системе. Таким образом, без дальнейшего совер- 
шенствования ТЕСТ своими результатами может 
свести на «нет» все свои «положительные момен- 
ты». 

Хорошо известно, что при текущей системе 
контроля знаний студентов в итоговой оценке при- 
сутствует составляющая, связанная с субъективны- 
ми пристрастиями преподавателя. Однако в сред- 
нем вклад этой составляющей нивелируется, и 
среднюю оценку в (допустимых пределах) можно 
считать объективной. Кроме того, существующая 
система предусматривает целый ряд механизмов, 
уменьшающих влияние этого фактора и исправле- 
ния ситуации, когда такое влияние выходит за до- 
пустимые рамки (возможность апелляции, созда- 
ние комиссий и т.д.). Предлагаемая система полно- 
стью исключает субъективную составляющую 
оценки, однако она вводит другую составляющую. 
Последняя носит чисто вероятностный характер, и 
связана с возможностью угадать ответ (достаточно 
заметить, что вероятность угадать правильно три 
задания из предложенных восьми с четырьмя вари- 
антами ответов (группа А) по формуле Бернулли 
[14] равна 0,21), неверно переписать ответ на 
бланк, ошибиться клеточкой или строчкой (точ- 
ность попадания имеет фатальный характер) и т.д. 
Возникает естественный вопрос - стала ли, при 
новой системе оценки знаний, итоговая оценка бо- 
лее объективной. Следует отметить организацион- 
ные сбои в проведении тестирования ВА и Пр в 
2003 г. (рис. 3), не адекватно отразившие реальную 
ситуацию с успеваемостью студентов. Полученные 


результаты позволяют оценить вклад случайной ве- 
роятностной составляющей в итоговою студенче- 
скую оценку как существенный. При этом кон- 
трольные испытания ВА и Пр, проведенные по 
традиционной системе, ничем не выделяются из 
остальных. Вклад случайной вероятностной соста- 
вляющей в итоговою студенческую оценку особен- 
но существенен на краях интервала (рис. 4, 5). Слу- 
чайный фактор не позволяет сильным студентам 
набрать высокий балл, а слабым низкий. В резуль- 
тате распределение ТЕСТ более похоже на нор- 
мальное с малой дисперсией по сравнению с ра- 
спределением КТ. 

При традиционном стандартном подходе экзамен 
является составной частью учебного процесса, и его 
роль не исчерпывается контролирующими функция- 
ми. Во время экзамена студент учится логически мы- 
слить, связно говорить, рассуждать и многое другое. 
После экзамена студент знает больше, чем до него. 
Тестовое испытание несет только контролирующие 
функции, поэтому его проведение, естественно, ме- 
нее трудоёмко, чем традиционное стандартное испы- 
тание. В условиях значительного сокращения ауди- 
торной нагрузки экономия на экзаменах отрицатель- 
но скажется на качестве учебного процесса. Тестовые 
испытания показывают относительные знания сту- 
дентов. Поэтому критерии тестовой оценки знаний 
должны привноситься извне (например, приведени- 
ем в соответствие с традиционной рейтинговой си- 
стемой оценки текущих знаний студентов). 

Тестовая форма оценки знаний получила широкое 
распространение в мире, однако это не означает, что 
речь идет о тестах типа ЕГЭ [5] или тестам типа [6-8]. 
Анализ экзаменационных билетов значительного чи- 
сла университетов Европы, Америки и Канады по ма- 
тематическим дисциплинам показывает, что они ана- 
логичны билетам письменного экзамена Российской 
системы образования. В этом смысле предлагаемая 
система контроля знаний находится значительно 
дальше от мировых образцов, чем традиционная. 

Выводы 

1. Различия в результатах оценки качества знаний 
студентов первого курса по математике методами 
ТЕСТ и КТ являются статистически значимыми. 

2. Приходится констатировать, что предложенные 
тестовые механизмы оценки знаний являются 
более грубыми, чем существующие традицион- 
ные, и отсутствуют какие-либо основания для 
утверждения, что предлагаемая система тесто- 
вого контроля знаний дает более объективную 
оценку знаний студентов. 

3. ТЕСТ проверяет знания студентов, отвечающие 
нижнему базовому уровню. 

4. Тестовые испытания показывают относитель- 
ные знания студентов. Поэтому критерии оцен- 
ки знаний должны привноситься извне (напри- 
мер, приведением в соответствие с традицион- 
ной рейтинговой системой оценки текущих 
знаний студентов). 
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5. Система тестовых испытаний позволяет 
получить быстро, но грубо (по системе «зачтено - 
не зачтено») срез знаний. Поэтому система тесто- 
вых испытаний должна, прежде всего, применять- 
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